Deep Learning I
8. 计算机视觉II
WU Xiaokun 吴晓堃
xkun.wu [at] gmail
2021/04/18
[Liu 2016] 以每个像素为锚点、多尺度检测
每段都生成锚框:预测类别、边界框
假设有q个目标类别:总共q+1个锚框类别,0类是背景
类别预测层:保持输入宽、高的卷积层
边界框预测层:4a个通道,即4个偏移量
多尺度预测:锚框数量、形状不同
多尺度预测实现:宽、高减半
模块与 VGG 类似:填充1的3x3卷积层 + 步幅2的最大池化
特征图减半:感受野边长加倍
基础网络实现:提取特征
五个模块组成
每段都生成锚框:预测类别、边界框
cv.gluon.ai/model_zoo/detection
[Girshick 2014] 启发式搜索:选择出提议区域(如锚框)
[Girshick 2014] 启发式搜索:选择出提议区域(如锚框)
R-CNN (2014) 早于 SSD (2016)
[Girshick 2014] 启发式搜索:选择出提议区域(如锚框)
R-CNN主要性能瓶颈:每个提议区域上网络独立传播
[Girshick 2015] Fast R-CNN:仅在整张图像上执行前向传播
RoI pooling:指定相同的输出形状
问题:还是不能系统地确定备选区域
[Ren 2015] Faster R-CNN:将选择性搜索替换为网络学习
RPN:从数据中学习选取规律
注意:RPN 随整个模型一起训练
[He 2017] Mask R-CNN:像素级预测
cv.gluon.ai/model_zoo/detection
R-CNN:选取若干提议区域,分别执行前向传播以抽取其特征,然后再预测类别、边界框。
Fast R-CNN:只对整个图像做前向传播。
Faster R-CNN:使用参与训练的区域提议网络
Mask R-CNN:引入全卷积网络,像素级预测精度。
SSD中锚框大量重复:导致重复计算
后续版本(V2,V3,V4)有持续改进
将图像分割成语义区域:像素级标注、预测
与示例分割的区别
模拟大光圈、小景深效果
实时像素级物体检测
神经网络:逐层提取不同层级的特征
语义分割:输出像素级语义预测
转置卷积:本质上是上采样
Y[i: i + h, j: j + w] \mathrel{+}= X[i, j] * K
注意:不是数学上的“反卷积”
转置卷积中,填充用于输出(常规卷积中用于输入)
步幅用于中间结果(输出),而非输入
多通道:与常规卷积相同
[Long 2015] 全卷积网络 fully convolutional network (FCN):只有卷积层
语义分割:对每个像素分类
三个主要阶段
转置卷积:假设需要放大s倍恢复尺寸
借鉴图像处理中上采样方法:双线性插值
[Gatys 2016] 将样例图片风格迁移到内容图像上
合成图像是唯一需要更新的模型参数
回顾:越靠近输入层,越容易抽取细节信息;反之,则越容易抽取全局信息
单发多框检测(SSD)。区域卷积神经网络(R-CNN)系列。你只看一次(YOLO)。
重点:SSD;R-CNN、Fast R-CNN、Faster R-CNN、Mask R-CNN;YOLO。
难点:。
简述SSD的设计特点。
简述R-CNN、Fast R-CNN、Faster R-CNN、Mask R-CNN的设计特点。
简述YOLO的设计特点。